5 research outputs found

    Deep Learning for 3D Visual Perception

    Get PDF
    La percepción visual 3D se refiere al conjunto de problemas que engloban la reunión de información a través de un sensor visual y la estimación la posición tridimensional y estructura de los objetos y formaciones al rededor del sensor. Algunas funcionalidades como la estimación de la ego moción o construcción de mapas are esenciales para otras tareas de más alto nivel como conducción autónoma o realidad aumentada. En esta tesis se han atacado varios desafíos en la percepción 3D, todos ellos útiles desde la perspectiva de SLAM (Localización y Mapeo Simultáneos) que en si es un problema de percepción 3D.Localización y Mapeo Simultáneos –SLAM– busca realizar el seguimiento de la posición de un dispositivo (por ejemplo de un robot, un teléfono o unas gafas de realidad virtual) con respecto al mapa que está construyendo simultáneamente mientras la plataforma explora el entorno. SLAM es una tecnología muy relevante en distintas aplicaciones como realidad virtual, realidad aumentada o conducción autónoma. SLAM Visual es el termino utilizado para referirse al problema de SLAM resuelto utilizando unicamente sensores visuales. Muchas de las piezas del sistema ideal de SLAM son, hoy en día, bien conocidas, maduras y en muchos casos presentes en aplicaciones. Sin embargo, hay otras piezas que todavía presentan desafíos de investigación significantes. En particular, en los que hemos trabajado en esta tesis son la estimación de la estructura 3D al rededor de una cámara a partir de una sola imagen, reconocimiento de lugares ya visitados bajo cambios de apariencia drásticos, reconstrucción de alto nivel o SLAM en entornos dinámicos; todos ellos utilizando redes neuronales profundas.Estimación de profundidad monocular is la tarea de percibir la distancia a la cámara de cada uno de los pixeles en la imagen, utilizando solo la información que obtenemos de una única imagen. Este es un problema mal condicionado, y por lo tanto es muy difícil de inferir la profundidad exacta de los puntos en una sola imagen. Requiere conocimiento de lo que se ve y del sensor que utilizamos. Por ejemplo, si podemos saber que un modelo de coche tiene cierta altura y también sabemos el tipo de cámara que hemos utilizado (distancia focal, tamaño de pixel...); podemos decir que si ese coche tiene cierta altura en la imagen, por ejemplo 50 pixeles, esta a cierta distancia de la cámara. Para ello nosotros presentamos el primer trabajo capaz de estimar profundidad a partir de una sola vista que es capaz de obtener un funcionamiento razonable con múltiples tipos de cámara; como un teléfono o una cámara de video.También presentamos como estimar, utilizando una sola imagen, la estructura de una habitación o el plan de la habitación. Para este segundo trabajo, aprovechamos imágenes esféricas tomadas por una cámara panorámica utilizando una representación equirectangular. Utilizando estas imágenes recuperamos el plan de la habitación, nuestro objetivo es reconocer las pistas en la imagen que definen la estructura de una habitación. Nos centramos en recuperar la versión más simple, que son las lineas que separan suelo, paredes y techo.Localización y mapeo a largo plazo requiere dar solución a los cambios de apariencia en el entorno; el efecto que puede tener en una imagen tomarla en invierno o verano puede ser muy grande. Introducimos un modelo multivista invariante a cambios de apariencia que resuelve el problema de reconocimiento de lugares de forma robusta. El reconocimiento de lugares visual trata de identificar un lugar que ya hemos visitado asociando pistas visuales que se ven en las imágenes; la tomada en el pasado y la tomada en el presente. Lo preferible es ser invariante a cambios en punto de vista, iluminación, objetos dinámicos y cambios de apariencia a largo plazo como el día y la noche, las estaciones o el clima.Para tener funcionalidad a largo plazo también presentamos DynaSLAM, un sistema de SLAM que distingue las partes estáticas y dinámicas de la escena. Se asegura de estimar su posición unicamente basándose en las partes estáticas y solo reconstruye el mapa de las partes estáticas. De forma que si visitamos una escena de nuevo, nuestro mapa no se ve afectado por la presencia de nuevos objetos dinámicos o la desaparición de los anteriores.En resumen, en esta tesis contribuimos a diferentes problemas de percepción 3D; todos ellos resuelven problemas del SLAM Visual.<br /

    Reconocimiento de lugares con invarianza a cambios del entorno mediante redes neuronales

    Get PDF
    El reconocimiento de lugares es un problema que consiste en, dada una imagen de entrada, encontrar en una base de datos con imágenes aquellas que se corresponden al mismo lugar. Es un área que se encuentra en investigación ya que forma parte de tecnologías en auge como la navegación autónoma y la realidad aumentada. Uno de los retos a resolver es que la apariencia de los lugares cambia por la dinámica de los entornos. Condiciones climatológicas como la nieve o la lluvia pueden hacer que un lugar parezca otro distinto. Algunas aproximaciones que utilizan redes neuronales presentan una mayor invarianza a los cambios de apariencia. Por ello, este trabajo emplea imágenes captadas con una cámara monocular y redes neuronales con estructuras siamesas y triplets para desarrollar el reconocedor. La implementación del reconocedor conlleva varios desafíos. Por un lado, disponer de datos adecuados para el entrenamiento de las redes y para la comprobación del reconocedor. Para ello se propone un conjunto de datos diseñado a partir de imágenes de los vídeos del trayecto Nordland. Por otro lado, la elección de la estructura y el proceso de entrenamiento de las propias redes neuronales. En este sentido, se ha comprobado que las redes neuronales, especialmente las triplets, son capaces de extraer características de los lugares robustas a los cambios de apariencia vistos en su entrenamiento. El reconocedor desarrollado alcanza resultados del estado del arte con imágenes del conjunto Nordland, rivalizando con aproximaciones tanto similares, como diferentes

    Reconocimiento de lugares con invarianza a cambios del entorno mediante redes neuronales recurrentes

    Get PDF
    El reconocimiento de lugares es un problema que tiene gran relevancia gracias a sus aplicaciones en navegación autónoma. Actualmente sigue sin estar resuelto de forma robusta. El reto que se afronta en este trabajo es el cambio en la apariencia visual de los lugares por factores como los fenómenos meteorológicos o la iluminación. La mayoría de aproximaciones se basan en una única vista y estudian diversos algoritmos para procesar las imágenes. Se ha demostrado que los métodos basados en redes neuronales son más robustos ante cambios de apariencia. En este trabajo se emplean redes neuronales y además se propone el uso de múltiples vistas. La hipótesis de partida es que la información que contiene una secuencia de imágenes puede ayudar a mejorar la robustez del reconocimiento de lugares ante cambios de aspecto. Para poder utilizar la información secuencial en este trabajo se proponen varias estrategias, entre ellas el estudio de las redes neuronales recurrentes. Cada estrategia requiere una fase de análisis, ajuste de parámetros y estudio de las arquitecturas neuronales óptimas. Las estrategias analizadas mejoran con respecto a los resultados obtenidos tanto por aproximaciones del estado del arte que no utilizan la información temporal como por aproximaciones que la utilizan. El reconocedor desarrollado es capaz de identificar correctamente más de un 92% de lugares en tramos de más de 80 kilómetros de recorrido cuando las condiciones son adversas

    Seguimiento y relocalización de una cámara monocular en mapas densos tridimensionales

    Get PDF
    La localización de una cámara es un problema clásicos de la Visión por Computador con aplicaciones en diferentes campos como la robotica o la fotogrametría. El objetivo de la localización es recuperar la posición y orientación de la cámara respecto a una referencia global en el mundo. Para ello normalmente se utilizan mapas tri-dimensionales basados en características. Estas características son puntos salientes e invariantes a escala. Emparejando los puntos salientes del mapa con los de la imagen es posible recuperar la posición de la cámara. Aunque estas técnicas son ampliamente utilizadas, no son robustas a situaciones donde las características no sean estables. Por ejemplo, en entornos con brillos y reflejos no es posible extraer este tipo de características. En los últimos años se han propuesto soluciones de mapas densas. Este tipo de mapas, al contrario de los basados en características, obtienen una representación continua del espacio. Este proyecto pretende desarrollar algoritmos de seguimiento y localización para una cámara monocular basados en mapas densos. La idea principal es que utilizando la información densa, la localización va a ser más robusta en situaciones como las descritas anteriormente. El proyecto ha propuesto dos algoritmos. El primero es un algoritmo de seguimiento basado en la minimización del error fotométrico entre la imagen y el mapa denso. El algoritmo utiliza la posición anterior de la cámara como semilla inicial y optimización jerárquica para evitar mínimos locales en los primeros pasos. El segundo algoritmo extiende el anterior a casos donde la semilla inicial no es conocida, usualmente conocido como el problema de la relocalización. En este caso, se ha propuesto un método mixto en dos pasos. Comienza con una aproximación grosera basada en características y después minimiza el error fotométrico con el mapa denso. Ambos algoritmos han sido evaluados en dos datasets, uno de laboratorio y otro en un entorno de compra real. Se ha comparado la precisión del algoritmo con técnicas de Bundle Ajustment, que son el estado del arte en el problema de structure from motion. Los resultados muestran que la precisión obtenida con mapas densos en seguimiento es mejor que a la obtenida con un proceso de minimización sobre todas las imágenes. En cuanto a la relocalización, la estrategia híbrida permite encontrar una semilla suficientemente buena para correr la localización densa

    Aprendizaje de estructuras 3D a partir de secuencias de imágenes

    Get PDF
    La reconstrucción 3D densa a partir de secuencias monoculares es una tecnología clave para varias aplicaciones y todavía un problema de investigación abierto. Este trabajo aprovecha resultados recientes en estimación de profundidad a partir de una sola vista utilizando CNN (Redes neuronales convolucionales) y los fusiona con la estimación de un método directo multi-vista. Ambas aproximaciones muestran fortalezas complementarias. Primero, los métodos basados en múltiples vistas son muy precisos en zonas con mucha textura en secuencias de alto paralaje. Segundo, el método que estima la profundidad a partir de una imagen captura muy bien la estructura local, incluidas las áreas sin textura, aunque carece de coherencia global. La fusión de estas dos estimaciones que proponemos tiene varios retos. En primer lugar, las dos profundidades están relacionadas por una deformación no rígida que depende en el contenido de la imagen. Y en segundo, la selección de los puntos de alta precisión del método multi-vista puede ser complicada en configuraciones de bajo paralaje. Presentamos una contribución a los dos problemas. Nuestros resultados en los conjuntos de datos públicos de NYU y TUM muestran que nuestro algoritmo mejora a las dos aproximaciones por separado
    corecore